PDF Extractor SDK dành cho nhà phát triển phần mềm Windows: PDF thành văn bản, PDF sang XML, Hình ảnh từ PDF, Đọc thông tin PDF, PDF sang CSV cho Excel.
Bytescout PDF Extractor SDK cho phép chuyển đổi PDF sang văn bản, PDF sang XML, PDF sang CSV, trích xuất hình ảnh từ PDF, trích xuất thông tin về các tệp PDF trong giao diện .NET và ActiveX mà không cần bất kỳ phần mềm bổ sung nào.
Lợi ích:
chuyển đổi PDF thành văn bản thuần túy (và có thể theo dõi các cột nếu bạn chuyển đổi một tờ báo ở định dạng PDF) - bao gồm trích xuất văn bản vô hình;
chuyển đổi bảng trong PDF sang Excel (CSV) bằng cách đọc các ô từ hình chữ nhật đã cho;
chuyển đổi các bảng trong tệp PDF sang XML;
trích xuất siêu dữ liệu tệp PDF (tiêu đề, tác giả, mô tả) và nhận thông tin khác về tệp (số trang, được mã hóa hay không);
trích xuất hình ảnh nhúng từ tài liệu PDF (trong ASP.NET, VB.NET, C #, VB6 và VBScript);
Các giao diện và lớp học DocumentMerger và DocumentSplitter để hợp nhất và tách các tài liệu PDF;
không yêu cầu Adobe Reader hoặc bất kỳ phần mềm đọc PDF nào khác được cài đặt;
cung cấp các giao diện .NET và ActiveX;
được tạo bằng mã C # được quản lý 100%.
Có gì mới trong bản phát hành này:
Phiên bản 9.0.0.3079: Đã thêm lọc nội dung được trích xuất theo tên phông chữ, kích thước phông chữ và màu sắc.
Đã cập nhật công cụ OCR lên phiên bản mới nhất. Cập nhật các tệp ngôn ngữ từ thư mục 'tessdata'.
Khai thác văn bản được cải tiến, nhóm các dòng trong dữ liệu dạng bảng, hiệu suất, trích xuất biểu mẫu XFA, TableDetector, các vấn đề phân tích cú pháp PDF cố định.
Có gì mới trong phiên bản 8.7.0.2980:
Đã thêm lọc nội dung được trích xuất theo tên phông chữ, kích thước phông chữ và màu sắc.
Đã cập nhật công cụ OCR lên phiên bản mới nhất. Cập nhật các tệp ngôn ngữ từ thư mục 'tessdata'.
Khai thác văn bản được cải thiện, phân nhóm các dòng trong dữ liệu dạng bảng, hiệu suất, trích xuất biểu mẫu XFA, TableDetector, các vấn đề phân tích cú pháp PDF cố định.
Có gì mới trong phiên bản 8.6.0.2911:
Đã thêm lọc nội dung được trích xuất theo tên phông chữ, kích thước phông chữ và màu sắc.
Đã cập nhật công cụ OCR lên phiên bản mới nhất. Cập nhật các tệp ngôn ngữ từ thư mục 'tessdata'.
Khai thác văn bản được cải tiến, nhóm các dòng trong dữ liệu dạng bảng, hiệu suất, trích xuất biểu mẫu XFA, TableDetector, các vấn đề phân tích cú pháp PDF cố định.
Có gì mới trong phiên bản 8.2.0.2699:
Phiên bản 8.2.0.2699 có thể bao gồm các bản cập nhật, cải tiến không xác định hoặc sửa lỗi.
Tính năng mới trong phiên bản 8.0.0.2528:
Tính năng mới trong phiên bản 7.0.0.2474:
Phiên bản 7.0.0.2474:
- đã thêm lớp tiện ích DocumentPrinter mới cho phép in tài liệu PDF một cách im lặng (không có bất kỳ hộp thoại người dùng nào)
- đã thêm lớp JSONExtractor mới
- thêm ghi đè cho phương thức DocumentSplitter.Split () cho phép chỉ định thư mục đầu ra cho các tệp được tạo
- lỗi đa luồng cố định trong DocumentSplitter
- tableDetector bây giờ tôn trọng vùng khai thác được thiết lập bởi phương thức SetExtractionArea ()
- thuộc tính mới trong các lớp khai thác: ExtractionColumns - chứa tọa độ của các cột được phát hiện; CustomExtractionColumns - cho phép ghi đè lên phát hiện cột
- Phương thức GetPageRect * không tính đến việc xoay vòng trang.
Đã sửa lỗi trong trình cài đặt khiến một số tệp từ quá trình cài đặt trước đó ảnh hưởng đến bản cập nhật - đã làm lại kiểm tra đăng ký. Bây giờ thư viện sẽ không ném một ngoại lệ, nhưng làm việc trong chế độ demo nếu bạn bị mất hoặc nhập sai RegistrationName và RegistrationKey
- Công cụ đa nhiệm PDF: Đã thêm danh sách tài liệu gần đây vào nút "Mở tài liệu PDF"
- PDF Multitool: Lựa chọn có thể được thay đổi kích cỡ ngay bây giờ
- PDF Multitool: Đã thêm tính năng Trích xuất JSON
- Công cụ đa nhiệm PDF: Giao diện người dùng dò tìm bảng được cải tiến
- Công cụ đa nhiệm PDF: Cải thiện chất lượng hiển thị phông chữ
- PDF Multitool: Thêm tùy chọn gỡ lỗi "Hiển thị các cột trích xuất được phát hiện" vào menu ngữ cảnh để hiển thị các cột được phát hiện trên trang hiện tại. Chỉ hiển thị sau khi chạy bất kỳ trích xuất nào so với trang được hiển thị hiện tại
- PDF Multitool: Sự cố hiển thị phông chữ cố định trên Windows 32 bit
- các cải tiến nhỏ và sửa lỗi khác
Tính năng mới trong phiên bản 6.30.0.2421:
Version 6.30.0.2421:
- Đã thêm lớp tiện ích TextComparer (chỉ có trong các phiên bản .NET 4.0) cho phép so sánh văn bản trong hai tài liệu PDF và tạo báo cáo.
- Cải thiện hỗ trợ hồ sơ màu ICC.
- Xử lý các phông chữ được nhúng một cách rõ ràng.
- Cải thiện Tệp đính kèmExtractor.
- Đã sửa phương thức XMLExtractor.SaveXMLToStream ().
- Đã sửa lỗi sao chép văn bản được trích xuất khi sử dụng tùy chọn OCRCacheMode.WholePage.
- Các bản sửa lỗi và cải tiến khác.
Tính năng mới trong phiên bản 6.20.2354:
Phiên bản 6.20.2354:
- PDF thành văn bản, PDF sang CSV, PDF sang các hàm XML được cải thiện
- Video trích xuất mới, ví dụ về trích xuất âm thanh
- Trình giải nén CSV và XML đã cải thiện hỗ trợ cho các bảng có các cột trống bên trong
- MultimediaExtractor mới để trích xuất video và âm thanh từ PDF
- thuộc tính mới PageDataCaching
- ví dụ "MemoryCareProcessingOfHugeFiles" mới
- ngoại lệ rỗng cố định khi cố gắng vứt bỏ các trang đã bị xử lý
- XLSExtractor: cải thiện hỗ trợ phông chữ
- SkipInvisibleText hiện bỏ qua văn bản được cắt bớt (không hiển thị)
- hiển thị kết quả văn bản được cải thiện
- Trình trích xuất XFDF: đã thêm hỗ trợ cho các hộp kiểm
- Đầu ra hình ảnh được cải thiện để hỗ trợ nhiều định dạng phụ
- Xử lý văn bản Unicode được cải thiện
Tính năng mới trong phiên bản 6.11.2149:
Phiên bản 6.11.2149:
- Các mẫu xử lý hàng loạt được cập nhật để hiển thị việc sử dụng phương thức Reset ()
- Mẫu mã nguồn C ++ được thêm vào để trích xuất trang
- DocumentMerger thêm phương thức Merge2 (inputfile1, inputfile2, outputfile) để hợp nhất 2 tệp
- XLS Extractor sửa lỗi nhỏ
- PDF Multitool giờ đây cho phép bật / tắt văn bản, hình ảnh, lớp vectơ, thêm cài đặt nâng cao để trích xuất văn bản
- XML, CSV, trích xuất bảng cải thiện hỗ trợ cho các bảng có ô trống trong các cột
- .ExtractShadowLikeText được cải thiện: lọc tốt hơn cho văn bản dạng bóng
Tính năng mới trong phiên bản 6.10.2136:
Phiên bản 6.10.2136:
- PDF sang XML, PDF sang CSV, chức năng PDF to Text được cải thiện
- PDF Để thêm dòng lệnh XLS (dựa trên vbscript)
- PDF sang HTML SDK thêm thuộc tính .DetectHyperLinks mới (TRUE theo mặc định) để bật / tắt phát hiện liên kết tự động trong văn bản
- new SearchablePDFMaker (có sẵn cho giấy phép PRO) để chuyển đổi PDF thành các tệp PDF có thể tìm kiếm
- thuộc tính mới trong trình trích xuất: Xem xétFontNames, Xem xétThuận mẫu, Xem xétTính năng, Xem xétVăn bản trong các tệp CFG
- phát hiện cột tiêu đề (khi AutoAlighHeaderToColumns = true) được cải thiện
- .DetectLinesInsteadOfParagraphs được thay thế bằng .LineGroupingMode mới để kiểm soát cách các dòng được hợp nhất thành các đoạn văn
- QUAN TRỌNG! PDF Để sửa XML vấn đề thời gian dài với tọa độ Y không chính xác cho các đối tượng văn bản (được trỏ đến phía dưới bên trái thay vì trên cùng bên trái)
- .TableXMinIntersectionRequiredInPercents và .TableYMinIntersectionRequiredInPercents properties được thêm vào
- Đã thêm mẫu mã nguồn C ++
- Trình trích xuất XML sửa các cột trống trong chế độ PreserveFormatting = true
- các bản sửa lỗi nhỏ về màu sắc trong một số tệp PDF
- hỗ trợ nhiều ngôn ngữ OCR được thêm vào
- GUI đa nhiệm PDF: thêm nút Sao chép vào Clipboard vào hộp thoại kết xuất TXT, CSV, XML và raster
- XLSExtractor: thêm thuộc tính PageToWorksheet để bật / tắt việc tạo các trang tính riêng biệt trên mỗi trang
- thuộc tính mới .TextEncodingCodePage
- PDFViewerControl: thêm ValidateContextMenu cho phép người dùng thêm các mục tùy chỉnh vào menu ngữ cảnh
- Kiểm soát Trình xem PDF: thêm thuộc tính ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor hiện thêm thuộc tính "OCRConfidence" cho văn bản đã nhận dạng
- Chức năng kiểm tra PDF / A (trong phiên bản beta)
- cải thiện kiểm soát và kiểm tra văn bản và căn chỉnh theo bố cục ban đầu. Vấn đề là do sự thay đổi của tọa độ Y trong điều khiển trong khi phân tích cú pháp: đó là không chính xác. Cách chính xác là shif ...
- Trình trích xuất XML được cập nhật: giờ đây sẽ tạo thẻ CONTROL cho các hộp kiểm và trường văn bản
- đã thay đổi bằng thư mục hiện tại thành thư mục tạm thời
Các hộp kiểm - , hộp phát thanh, hộp chỉnh sửa, combobox được hỗ trợ tốt hơn
- hiện cho phép người gọi tin cậy một phần
Tính năng mới trong phiên bản 5.80.1781:
Phiên bản 5.80.1781:
- PDF sang XML, PDF sang CSV, chức năng PDF to Text được cập nhật
- OCRMode hiện cung cấp 9 chế độ
- .DetectLineInsteadOfParagraph giờ hoạt động tốt hơn nhiều. Đặt nó thành False để ghi lại văn bản nhiều dòng trong các ô bảng!
- Hỗ trợ điều khiển PDF được cải thiện
- Trích xuất dữ liệu FDF và XFDF
Tính năng mới trong phiên bản 5.10.1747:
Phiên bản 5.10.1747:
- Tính năng PDF sang XML, PDF sang CSV, PDF sang Text được cải thiện
- hiện hỗ trợ trích xuất văn bản từ các điều khiển văn bản
- Trình trích xuất XML hiện thêm kiểu phông chữ, kích thước, tên, tọa độ văn bản vào thẻ
- Mẫu ASP.NET cho việc sử dụng OCR được thêm vào
- thuộc tính mới OCRLanguageDataFolder để chỉ định vị trí của thư mục "tessdata"
- hỗ trợ các tệp PDF được cải thiện
- cải thiện hỗ trợ cho văn bản được xoay
- các mẫu mã nguồn được cập nhật
- tài liệu cập nhật
- cải tiến nhỏ và sửa lỗi
Tính năng mới trong phiên bản 5.00.1626:
Phiên bản 5.00.1626:
- OCR (văn bản từ hình ảnh) chức năng được thêm vào: bây giờ bạn có thể trích xuất văn bản từ hình ảnh được nhúng và sửa chữa văn bản bị hỏng
- vấn đề được khắc phục bằng trình trích xuất CSV và XML thiếu cột cuối cùng với một số cài đặt
- đã cải thiện hỗ trợ cho các tệp PDF bị hỏng
- tìm kiếm văn bản tìm kiếm nhiều dòng với chế độ đối sánh từ hiện được hỗ trợ
- hiện có thể tìm kiếm văn bản bằng dấu gạch ngang và trên các dòng khác nhau: xem mẫu mã nguồn mới Tìm Văn bản Có dấu gạch ngang
- thuộc tính mới .RTLTextAutoDetectionEnabled (false theo mặc định) để tự động phát hiện ngôn ngữ RTL
- Trình diễn GUI GUI của Trình xem PDF được cải thiện
- cải tiến nhỏ và sửa lỗi
Yêu cầu :
.NET Framework 2.0 trở lên
Hạn chế :
Màn hình Nag, hình mờ trên đầu ra
Bình luận không